@词向量→词缀Affixation in semantic space

Affixation in Semantic Space: Modeling Morpheme Meanings with Compositional Distributional Semantics

作者: Marco Marelli, Marco Baroni (Center for Mind/Brain Sciences, University of Trento, Italy)

摘要

本研究提出了一个在意义层面模拟语素组合的计算模型。该模型基于分布语义学 (distributional semantics) 的原理，假设词语意义可以通过记录其在大型文本语料库中与其他词语共现情况的向量来有效表示。基于此假设，词缀被建模为将词干映射到派生形式的函数（矩阵）。因此，派生形式的意义可以被认为是组合过程的结果，该过程根据词缀矩阵转换词干向量（例如，nameless 的意义通过将 name 的向量与 -less 的矩阵相乘得到）。我们证明，这种架构能够解释人类生成表示新意义的新词的卓越能力，并能正确预测关于新派生形式的语义直觉。此外，所提出的组合方法，一旦与整词路径 (whole-word route) 配对，为语义透明度 (semantic transparency) 提供了一个新的解释框架，这里部分解释为组合过程的难易程度和词缀带来的转换强度。基于模型的预测与语义透明度对现有词汇的明确直觉、词汇判断任务中的反应时间以及形态启动效应 (morphological priming) 的调节作用相符。总之，我们引入了一个计算模型来解释意义层面的语素组合。该模型是数据驱动的、理论上合理的，并得到了经验支持，它所做的预测为语义处理领域开辟了新的研究途径。

关键词: 分布语义模型, 组合性, 构词法, 派生形态学, 语义透明度, 新词

引言

背景: 从文本语料库中归纳出的大规模统计模型在模拟人类语言处理和习得的各个方面发挥着越来越核心的作用。分布语义学 (Distributional Semantics) 方法通过向量化词语的上下文来量化语义相似度，假设意义相似的词出现在相似的上下文中。
问题: 词语不是最小的意义承载单位。语素 (morphemes)（如 null 和 -ify in nullify; drive 和 -er in driver）是语言词汇生产力（生成可理解新词的能力）的基础。尤其是派生形态学 (derivational morphology)（词干+词缀 → 派生词）。
现有分布语义学的局限:
- 可以量化派生词与其词干之间的语义透明度（如 redo vs do，recycle vs cycle 的相似度）。
- 但缺乏一个模型来描述形态过程本身的语义方面，即如何结合词干和词缀的意义来生成派生词的意义。
研究缺口:
- 缺乏对形态组合在语义层面的明确解释，使得形态处理模型忽略了形态过程的核心目的——通过组合现有语素来表达新意义。
- 关于复杂词是否必须作为“语义不可预测”项列入词典的争论，因缺乏客观模型而停留在理论层面。
本文目标: 填补这一空白。利用分布语义学的最新进展，开发一个全自动、数据驱动的形态组合组件，能够根据词干和词缀的分布表示，生成相应派生词的分布表示。
模型能力与测试:
- 能生成新派生词 (novel derived words) 的意义表示，触及派生形态学的核心功能——词汇生产力。
  - 实验1: 模型的组合表示的量化属性可预测人类对新词（如 harassable vs windowist）语义可接受度 (meaningfulness) 的直觉。
  - 实验2: 模型为新词找到的“最近邻居”在语义上确实比其他词（包括词干）更接近该新词（根据人类判断）。
- 应用于现有派生词 (existing derived forms)，解释与语义透明度相关的行为模式。
  - 实验3: 预测明确的语义相关性直觉。
  - 实验4: 调节词汇判断任务中的词干频率效应。
  - 实验5: 解释形态启动效应结果。
结论: 提出的组合分布语义框架为模拟形态处理提供了一个有效的意义层。模型从数据中学习到的更丰富、更灵活的意义组合规则，捕捉了比完全透明更广泛的组合模式，并对词义模型的发展具有重要的理论意义。该模型可用于为复杂形式（无论是已知的还是全新的）获取数据驱动的、量化定义的语义表示。

形态处理的语义方面 (Semantic aspects of morphological processing)

形态学在词语识别中的作用: 形态信息超越了纯粹的语义和形式相似性。
- 启动实验 (Priming experiments): 形态相关启动（如 cattish-cat）比语义（dog-cat）或形式相关（cattle-cat）启动效果更强。
- 语义透明度的调节: 透明词对（dealer-deal）的启动效应大于不透明词对（courteous-court）。这种调节作用在多种语言和实验设置中都观察到。
- 结论: 复杂词的处理受其构成成分的语义属性影响。
词族大小效应 (Family size effects):
- 定义: 一个复杂词的词族大小是指包含相同词干的不同词的数量。
- 效应: 对复杂词和简单词的识别都有促进作用。（一个词的“家族成员”越多（比如，以 deal 为词根的词有 dealer, dealing, dealt 等），你在识别这个词根 deal 本身，或者它的任何一个家族成员时，速度就会越快。）
- 语义性质:
  - 只在后期（中央处理层面）出现。
  - 排除不透明形式后，预测性更好。
  - 可与词族频率（与视觉熟悉度相关）分离。
  - 不规则相关词因语义连接而贡献效应，尽管拼写不同。
  - 与目标词的其他语义维度（如具体性）交互。
  - 跨语言预测单语者的词汇判断延迟。
- 结论: 词语的形态关系通过意义介导的联想发挥作用。
- 芬兰语数据: 词干和词缀在语义层面可能有不同的表示（后缀相关信息次于词干意义）。
复合词处理 (Compound processing):
- 单个成分（如 year, book）的语义属性影响整个复合词（yearbook）的识别。
- 影响机制: 核心意义的激活/干扰，或情感效价的影响。
现有形态处理模型的不足:
- 常缺乏对语素在语义层面如何表示的详细描述，多关注早期正字法-词汇层面。
- 有些模型（如 Crepaldi et al., 2010; Taft, 2004）故意不详细说明语义系统。
- 连接主义模型 (Connectionist models):
  - 语义层面由代表语义特征的亚符号节点构成，词义是这些节点的激活分布。
  - 形态效应被解释为派生词和词干在形式和意义上大量重叠的副产品，不涉及在线构建。
- 假设语素存储的模型:
  - 假定语义系统中有存储的语素表示（词干和词缀）。
  - 假定它们最终组合成整词意义，但组合过程（计算上）未指定。
- 概念组合研究 (Conceptual combination): 主要关注内容词组合（如 stone+squirrel），与词根+词缀（如 stone+ful）的组合有所不同。
总结: 尽管有不同假设，心理语言学文献普遍缺乏对带词缀词在意义层面如何表示和处理的详细描述。这在当前研究形态处理中语义影响的时间进程时，显得尤为突出。

分布语义模型 (Distributional semantic models - DSMs)

核心思想: 分布假设 (distributional hypothesis) - 意义相似的词倾向于出现在相似的语言环境中。反之，可以通过上下文相似性推断意义相似性。
实现:
- 用向量表示词义，记录词语在语料库中各种上下文（如文档、共现词）的出现频率。
- 用几何方法（特别是向量夹角的余弦值 (cosine)）量化语义相关性。
- 图1示例: automobile 和 car 的向量比 horse 更接近，因为它们与 runs 和 wheels 的共现模式相似。
DSM的多样性: 在上下文定义、原始共现计数加权、是否使用降维技术等方面存在差异。
- LSA: 基于词-文档共现矩阵，使用SVD降维。
- HAL: 基于词-词共现（不同窗口大小）。
- 神经语言模型 (Neural Language Models): 向量通过预测上下文模式训练得到。
DSM作为认知模拟模型的优点:
- 从大量自然语言数据中归纳意义，类似儿童习得词汇。
- 易于为成千上万的词归纳和编码意义表示。
- 自然提供渐进的 (graded) 意义概念（通过连续的相似度得分），符合主流的“原型”观。
DSM的成功应用: 模拟相似性判断、语义启动、概念分类、动词选择偏好等。
向量的内在属性: 向量长度、熵等也被证明具有语言学意义。
DSM在形态学中的应用:
- 已成为量化派生词或复合词语义透明度的标准方法（通过测量复杂形式与其成分间的几何距离）。
- 许多研究使用LSA等模型来量化形态相关词对的语义相关性，并发现其与行为数据（词汇判断、眼动）相关。
现有DSM在形态学中的局限:
- 提供形态过程输入（词干）和输出（派生词）的表示，但无法描述过程本身以及触发过程的语素（如 re- 如何贡献于 reconsider 的意义）。
- 传统DSM对于研究形态学来说是较差的语义替代物，因为它们无法模拟意义组合 (meaning composition)。
超越词层面的组合性挑战:
- DSM研究者一直对如何从词向量组合出短语、句子意义感兴趣。
- 但多数方法不适用于派生形态学，因为它们假设输入是词向量集合。例如，向量加法无法处理 re- 这样的非独立词。
函数式方法 (Functional approach):
- 由 Baroni & Zamparelli (2010) 等提出。
- 遵循形式语义学，将组合视为函数应用 (function application)。
- 例如，形容词（red）是作用于名词向量（car）并返回短语向量的函数。
- 自然扩展到派生：前缀 re- 是作用于动词向量（consider）并返回调整后意义的动词向量（reconsider）的函数。
- 不需要独立的词缀向量表示。这是本文采用的方法。

组合意义 vs. 整词意义 (Combinatorial versus full-form meaning)

整词意义的优势:
- 可以处理复杂词特有的、不同程度的特异性语义 (idiosyncratic semantics)。
- 可以处理词干不是词的情况（如 grocer，-er 意义透明，但 groce 不是动词）。
整词意义的局限:
- 无法解释形态系统的生产力 (productivity)。母语者能构建新词（herringless dish）并被理解。
组合机制的必要性:
- 任何语义系统模型都需要解释新词现象，这需要语素意义的表示和组合过程。
混合模型:
- 假设组合过程不排斥整词意义也存储在语义系统中。
- 两种模型（纯整词 vs. 混合）在经验上难以区分。
本研究贡献: 提供组合机制的计算形式化定义，有助于评估复杂词意义在多大程度上可由系统过程预测，反之，确定何时真正需要独立的整词意义表示。

用于语素组合的分布模型 (A distributional model for morpheme combination)

分布语义空间 (Distributional semantic space)

参数选择: 采用先前经验测试中表现最佳的参数集。使用 DISSECT 工具包实现。
语料库: ukWaC + 英文维基百科 + BNC (约28亿词)。
预处理: 词形还原 (lemmatization)，词性标注 (part-of-speech tagging)。
- 结果: 同形异义词有不同向量（名词 run vs. 动词 run）；不同屈折形式共享同一向量（speak, speaks, spoke → speak 向量）。
词汇表: Top 20,000 频率的内容词 + 词缀函数训练中使用的词。
共现统计:
- 词-词共现 (Word-to-word co-occurrence)，5词上下文窗口（目标词前后各2个内容词）。
- 优点: 捕捉更紧密的语义和句法关系（如分类关系），适合模拟形态派生带来的细微意义变化。
加权方案:
- 非负点互信息 (nonnegative Pointwise Mutual Information - PMI)。
  - 公式: $$ PMI(t,c)=\log\frac{p(t,c)}{p(t)p(c)} $$
  - 原理: 量化词对 $(t, c)$ 的共现是否显著超出随机预期。高PMI表示有意义的关联（如 dog+barks），低PMI表示偶然共现（如 the+dog）。
  - 认知联系: 类似Rescorla-Wagner模型的判别性学习，高PMI=信息量大=判别力强。
降维 (Dimensionality reduction):
- 目的: 使数据矩阵更易处理；提取抽象语义特征/主题。
- 方法: 非负矩阵分解 (Nonnegative Matrix Factorization - NMF)。
  - 优点: 提高模型性能；产生的维度类似可解释的主题模型的主题。
- 维度数量: 350 (基于先前经验)。
结果空间: 约20,000个350维向量，每个代表一个词义。
语义相似度度量: 向量夹角的余弦值。
- 公式: $$ \cos(\vec{a},\vec{b})=\frac{\sum_{i=1}^{i=n}a_{i}\times b_{i}}{\sqrt{\sum_{i=1}^{i=n}a_{i}^{2}}\times\sqrt{\sum_{i=1}^{i=n}b_{i}^{2}}} $$
- 范围: [0, 1] (因使用NMF，向量分量非负)。0=正交，1=平行（最相似）。

归纳词缀的函数表示 (Inducing functional representations of affixes)

核心思想: 遵循函数式组合分布语义学，词缀被视为修改词干语义以获得新意义的函数。
数学实现:
- 将组合函数限制为线性变换 (linear transformations)（但见附录B讨论此限制的性质）。
- 词缀表示为系数矩阵 (coefficient matrices)。
- 函数应用对应于向量-矩阵乘法 (vector by matrix multiplication)。
- $n$ 维（行）向量 $\times$ $n \times n$ 矩阵 → $n$ 维（行）向量。
- 输出向量的第 $i$ 维是输入向量所有维度的加权和，权重来自矩阵的第 $i$ 列。
- 矩阵编码了每个输入维度如何影响每个输出维度。
模型名称: FRACSS (Functional Representations of Affixes in Compositional Semantic Space)
- 优点: 符合语言学中词缀作为功能元素的观点；符合心理语言学中词干优先、词缀意义后加入的发现。
玩具示例 (Toy example):
- 前缀 re- 的语义: 对活动动词 (sing) 表重复（to V again），对完成动词 (open) 表恢复（恢复到未V状态）。
- 假设的上下文特征: continuously (活动), completely (完成), again (重复), back (恢复)。
- 假设的6维空间，d1, d2 不受 re- 影响。
- 表1: 玩具FRACSS矩阵 (re-) - 显示了输入维度对输出维度的影响权重。例如，completely 对 back 的权重是2，continuously 对 again 的权重是2。
- 表2: 玩具向量和组合结果 - 展示了同一个矩阵如何作用于不同的词干向量 (sing, open)，正确地强调了 re-sing 的 again 维度和 re-open 的 back 维度。
- 现实情况: 向量维度和矩阵大小远超玩具示例 (350维, 350x350矩阵)，允许更丰富的表示和交互。
- FRACSS矩阵本身: 也可视为高维向量，相似词缀应有相似矩阵。
学习FRACSS权重:
- 使用最小二乘法 (least-squares methods) 从语料库提取的输入-输出对（词干-派生词对）中估计矩阵权重。
- 目标: 使学习到的矩阵在应用于训练集中的词干向量时，产生的输出向量与语料库中实际派生词的向量在几何上尽可能接近。
- 例子: 用 <do, re-do>, <think, re-think> 等对学习 re- 矩阵。
- 学习到的FRACSS可应用于未见过的词干向量，生成新派生词。
FRACSS的认知解释:
- 捕捉词干分布和派生词分布之间的系统性模式。
- 例如，对于施事者 -er，FRACSS表示某些动作（deal, run）的上下文表示与能够执行这些动作的实体（dealer, runner）的上下文表示之间的关联。
- 学习过程类似于基于统计共现发展关联，但FRACSS捕捉的是**“意义”（上下文分布）之间的高阶关联**。
训练细节:
- 为 34个词缀 训练了FRACSSs (见附录A列表)。
- 每个词缀至少有 50个 词干/派生词对作为训练数据。
- 训练对来自 CELEX 英语词汇数据库（形态标注非常宽松，包含许多传统意义上的不透明词，如 listless, department, corny）。这减少了人为监督，类似于基于表面启发式的学习。
- 训练对中的词干和派生词在语料库中至少出现20次。

FRACSS派生表示的示例 (Examples of FRACSS-derived representations)

方法: 通过检查组合生成的派生词向量的最近邻居 (nearest neighbors) (空间中余弦相似度最高的词) 来定性分析其意义。邻居通常来自Top 20。
捕捉词缀多义性 (Affix Polysemy):
- -er: carver (施事者，邻居: potter, engraver) vs. broiler (工具，邻居: oven, stove)。
- -ment: interment (过程，邻居: inter, cremate, burial) vs. equipment (结果，邻居: maintenance, servicing, deploy)。
- -ful: careful ('full of care'，邻居: judicious, attentive) vs. dreadful ('causing dread'，邻居: frightful, horrible)。
- re-: reissue (重复，邻居: original, expanded) vs. retouch (修正，邻居: repair, refashion) vs. resound (强调，邻居: reverberate, echo)。
选择正确的词干意义 (Stem Sense Selection):
- -ify: type (词干，计算/打字意义主导) → typify (选择“典型例子”意义，邻居: embody, characterize)。
- -ist: column (词干，建筑/数学意义主导) → columnist (选择“新闻”意义，邻居: publicist, journalist)。
捕捉词缀的细微差别 (Affix Nuances):
- -ist:
  - cellist (演奏家，邻居: flutist, virtuoso)。
  - entomologist (专家，邻居: zoologist, biologist)。
  - propagandist (政治原因，邻居: left-wing, agitator)。
  - rapist (罪犯，邻居: extortionist, bigamist)。
不同词缀对同一词干的作用: industrial (邻居: environmental, land-use) vs. industrious (邻居: frugal, studious)。
捕捉子规则性 (Sub-regularities):
- FRACSS诱导出的模式可能非常具体，但仍有一定系统性（如 columnist 的意义由 essayist, journalist 等训练样本泛化而来）。
- 类似音系学中的“可靠性孤岛”或句法中的构式家族，但语义边界更模糊。
处理词汇化/不透明形式:
- 当主导意义高度词汇化时，FRACSS组合会产生一个更透明的替代解释。
- 例如: nervous (语料库向量邻居: anxious, panicky) vs. nervous (组合向量邻居: bronchial, nasal - 医学意义)。
- 这可能是理想的，因为人类也可能同时存储整体意义和组合生成意义。
总结: 函数式方法（向量-矩阵乘法）非常灵活，能够捕捉词缀/词干多义性、交互作用和一定程度的不透明派生。这种灵活性源于每个输出维度都是词缀特定权重与整个词干维度分布的乘积组合，允许根据词干的分布模式强调或抑制不同的语义特征，甚至解释一些传统上不透明的情况（如 fruitless, heartless，源于词干本身编码的次要意义）。

新派生词的分布表示 (Distributional representations of novel derived words)

动机: 模型通过组合过程构建派生词语义表示，因此可以为新词 (nonce formations) 构建表示。生成新词是形态派生的核心功能，且很大程度上是组合性的，因此新词是模型的天然测试基准。
研究目标: 模拟新词的语义可接受度 (meaningfulness)，并评估模型为其生成的向量表示的质量。

新词的可接受度 (Meaningfulness of novel forms)

现象: 新复杂词并非都同样有意义（harassable vs windowist）。语义是约束词语派生的重要因素（如 re-die 很奇怪）。可接受度通常是渐进的。
建模任务: 使用组合DSM提供的连续分数来预测可接受度。
方法: 借鉴 Lazaridou et al. (2013) 用于短语的研究，将量化属性应用于FRACSS组合生成的新词向量。
- 邻域密度 (Neighborhood density):
  - 定义: 词向量与其N个最近邻居向量的平均余弦相似度。
  - 公式: $$ d e n s i t y(t)=\frac{\sum_{i=1}^{i=N}\cos(\vec{t},\vec{n}_{i}(t))}{N} $$ (本文 N=10)
  - 原理: 有意义的新概念应位于已词汇化相关概念密集的语义空间区域；无意义的则远离任何有意义的概念。 (图2左上)
- 词干邻近度 (Stem proximity):
  - 定义: 派生词向量与其词干向量的余弦相似度。
  - 公式: $$ p r o x i m i t y(t)=\cos\left(\vec{t},\vec{s}\right) $$
  - 原理: 在生产性构词中，派生词意义不应与词干差异过大，否则派生失败。新词不能有特异性意义，远离词干意味着派生失败。 (图2右上)
- 向量熵 (Vector entropy):
  - 定义: 衡量向量值分布的均匀度。低熵=分布倾斜（少数维度值大），高熵=分布均匀。
  - 公式: $$ H(t)=\log K-\frac{1}{K}\sum_{i=1}^{i=K}t_{i}\log t_{i} $$ (K为维度)
  - 原理: DSM维度代表语义域/主题。高熵向量无特定意义。预期熵与可接受度负相关。 (图2底部)
  - 证据: 真实派生词的熵远低于新词的熵。
材料与方法:
- 词缀: 4个后缀 (-able, -er, -ist, -less) 和 2个前缀 (re-, un-)，均具有一定的生产力且约束较少 (表3)。
- 新词生成: 将词缀附加到合适词性的高频词干上，应用拼写规则，手动排除非语义原因的怪异形式。确保新词在大型语料库中从未出现。共约600个新词。
- 可接受度评分: 通过 Amazon Mechanical Turk 进行众包 (crowdsourcing)。参与者（英语母语者）在5点量表上评价为每个新词赋予意义的难易程度。每词10个评分，取平均值。
- 结果概览: 平均评分较高，词缀间有差异，但每个词缀内部差异也很大，表明可接受度不仅取决于词缀，也取决于具体词干 (表3)。
结果分析:
- 使用混合效应模型 (mixed-effects model) 分析评分。
- 预测变量: 邻域密度、词干邻近度（线性和二次项）、向量熵、词干频率（对数转换，作为协变量）。
- 随机效应: 词缀的随机截距和斜率。
- 发现 (表4, 图3):
  - 熵: 显著负效应 (熵越高，可接受度越低)。
  - 词干邻近度: 显著二次效应 (中等邻近度时可接受度最高，过高或过低都导致评分下降)。
  - 词干频率: 趋势接近显著 (频率越高，可接受度略高)。
  - 邻域密度: 不显著，被移除。
讨论:
- 熵效应: 符合预期，高熵=无特定意义=难理解。
- 词干邻近度二次效应:
  - 过高邻近度 (如 opticianist, scholarist) → 冗余，新词无必要。
  - 过低邻近度 (如 sludgist, windowist) → 关系模糊，难以理解新意义。
  - 结论: 新词需与词干足够不同以避免冗余，但又不能太远以致无法理解。
- 邻域密度不显著: 可能与熵相关 ( $r = .36$ )；当前操作化可能未完全捕捉“密度”直觉（未考虑邻居间的关系）。
- 核心结论: 组合生成的向量的量化属性（熵、邻近度）能显著预测人类对新派生词的语义直觉，即使控制了词干频率和词缀类型。

新词向量表示的质量 (Quality of novel form vector representations)

动机: 直接评估模型为有意义的新词生成的向量表示的语义质量。
假设: 高质量的向量应位于语义空间中由直观相关词语向量构成的区域。
方法:
- 选取新词: 从上个实验中选取平均可接受度评分 >= 4 的新词 (236个)。
- 提取邻居: 找到这些新词向量（FRACSS生成）的Top 10最近邻居。过滤掉过于普遍的邻居（主要反映词缀意义）。
- 构建词对:
  - 新词条件: 邻居 vs. 对应的新词 (blameworthy-apologizable)。
  - 词干条件: 邻居 vs. 对应新词的词干 (blameworthy-apologize)。
  - 随机条件: 邻居 vs. 不相关的随机词 (blameworthy-blazer)。
- 相关性评分: 通过 Amazon Mechanical Turk 众包。参与者（英语母语者）在7点量表上评价词对的语义相关性。每对10个评分，取平均值。
结果分析:
- 使用混合效应模型分析评分，条件作为预测变量，词对中的两个词作为随机截距。
- 发现: 新词条件下的平均评分 ( $m e a n = 2.41$ ) 显著高于随机条件 ( $m e a n = 1.87$ ) 和词干条件 ( $m e a n = 2.19$ )。
讨论:
- 邻居与新词的相关性高于随机词，表明组合向量定位的语义区域并非随机，而是包含了母语者认为相关的词。
- 更重要地: 邻居与新词的相关性高于与词干的相关性，表明组合过程产生了特定于派生词的语义表示，而不仅仅是复制词干意义。
- 表5给出了邻居与新词比与词干更相似的例子（如 pastureless vs barren, disagreer vs doubter, soakable vs waterproof），展示了模型捕捉到的派生过程带来的特定语义内涵。

新词实验总结讨论 (General discussion of the novel word experiments)

模型总结: FRACSS通过将词缀表示的函数(FRACSS矩阵)应用于熟悉的词干(向量)来构建新词的语义表示。该过程基于词缀在语言使用中的系统性统计关系。结果是灵活的，因为输出分布的每个维度都受到整个词干向量和特定词缀权重的影响。
实验1 (可接受度):
- 有意义的新词具有更低熵的表示（意义更具体）。
- 可接受度呈二次函数依赖于与词干的邻近度（需要在区分度和可恢复性间取得平衡）。
- 这些属性是组合过程的涌现特性，而非输入本身所固有的。
实验2 (质量):
- FRACSS生成的有意义新词向量的邻居在语义上确实与新词相关，且比与其词干更相关。
- 表明组合过程捕捉了派生词的独特性。
"Wug 测试" 模拟:
- FRACSS矩阵的截距向量 (intercept vector) (最小二乘法估计得到) 代表了训练集中所有派生词的平均分布意义。
- 这个截距向量可以模拟对词干未知（如 zibber）的词的理解，只依赖词缀的普遍语义。
- 初步结果显示，高生产力词缀的截距向量的邻居确实大量包含该词缀，且邻居意义与词缀典型意义相关（如 -er 截距邻居多为职业）。
- 这表明FRACSS可能捕捉词缀自身的语义贡献，可用于模拟"wug"测试或处理如 grocer 这样词干非词的情况。
结论: FRACSSs为新形态复杂词的语义处理提供了一个良好模型，为理解新语素组合中意义构建的关键决定因素铺平了道路。

模拟语义透明度效应 (Modeling semantic transparency effects)

动机: 探讨组合方法是否在处理熟悉的派生词时也发挥作用。
理论基础:
- 如果组合过程用于新词，没有理由在处理其他派生词时被阻止。
- 这需要语素的系统性激活（早期形态分析）。
- 经验证据表明，形态分析（分解）是自动的、语义盲的 (semantically blind)，对任何潜在复杂词都会发生（corner vs darkness; courteous vs darkness; quickify vs darkness）。
组合过程的局限性:
- FRACSSs反映的是词干-派生词意义间的统计系统性（包括子规则性）。
- 对于经历过语义漂移 (semantic drift) 或词汇化的现有词，组合过程可能无法捕捉其全部意义。
整词路径 (Whole-word route):
- 需要一个补充的整词路径来直接访问派生词的整体意义，以捕捉历时现象和意外形态。
研究问题 (针对现有词):
- 组合过程能在多大程度上解释熟悉形态结构的语义变异？（即，系统性关系能在多大程度上解释形态语义现象？）
- 评估两种语义过程（组合 vs. 整词）在不同任务和条件下的相对效率。
测试领域: 语义透明度 (Semantic Transparency - ST)
- 定义: 整词意义可以从其组成部分意义推断出的容易程度（rename 透明 vs. remark 不透明）。
- 在复杂词处理文献中是核心主题。
- 假设: 透明词可通过语素访问，不透明词需整体表示和直接访问。
- 证据: 主要来自启动范式（派生词作启动词，词干作目标词）。
  - 长SOA: 只有透明词有显著启动效应。
  - 短SOA (掩蔽启动): 透明和不透明词都有启动效应（表明早期语义盲分解），但透明词的启动效应通常更大。
  - 近期证据 (启动, 眼动): 即使在早期，语素意义也会在分解后立即被访问。
- 结论: ST在复杂词识别中起作用，其影响在不同处理阶段可能不同。
重新审视不透明性 (Opacity):
- 传统观点认为不透明词超出组合模型的能力。本文认为未必如此。
- 挑战传统假设:
  1. ST常操作化为词干-派生词相似度，忽略了词缀的作用。词缀在不透明词中通常仍有意义（如 courteous 中的 -ous 标记形容词）。FRACSS模型强调词缀的功能性。
  2. 不透明词集异质性高（从伪派生词 corner 到并非完全不透明的 fruitful）。某些不透明词可能仍有组合系统性，只要组合过程足够灵活（如能选择词干的特定特征，如 fruitful 中 fruit 的隐喻义）。DSM向量维度和FRACSS应能捕捉这些。
  3. 语义透明度 ≠ 派生系统性。一个过程可以是系统性的（如否定后缀 -less），但由于它显著改变词干意义，结果可能不完全“透明”。
- 结论: 不透明性不是组合模型的理论上限，而是测试其灵活性和细微度的良好经验基准。

量化语义透明度 (Quantifying semantic transparency)

操作化: 沿用先前研究，将ST定义为目标派生词 $t$ 的向量 $\vec{t}$ 与其词干 $s$ 的向量 $\vec{s}$ 之间的邻近度 (proximity)。
- 公式: $$ ST = \cos(\vec{s}, \vec{t}) $$
两种获取 $\vec{t}$ 的方法:
- 组合方法 (Composition approach): $\vec{t}$ 通过将FRACSS应用于 $\vec{s}$ 得到。
  - 不依赖 $\vec{t}$ 的显式表示。
  - 量化词缀过程对词干意义的改变程度，这种改变应有一定系统性。
  - 与基于语素的语义相关。
- 整词方法 (Whole-word approach): $\vec{t}$ 是从语料库中直接提取的派生词 $t$ 的向量。
  - 量化两个独立意义间的关联（类似 dog vs cat）。
  - 依赖显式、独立的表示。
  - 与整体、封装的意义相关。
理论含义: 两种方法计算相同的ST得分（余弦值），但获取 $\vec{t}$ 的方式反映了不同的理论假设和潜在的认知过程。
后续实验: 将使用这两种ST度量来预测一系列形态处理中的行为效应。

对带词缀词的明确直觉 (Explicit intuitions about affixed words)

动机: 传统上用人类对词语语义属性的评分来验证分布语义度量的可靠性。ST也不例外。
假设: 词干-派生词向量余弦相似度应与人类对ST的明确直觉相关。
材料与方法:
- 刺激: 900个词对（派生词-词干），来自18个训练样本最多的词缀，每词缀随机抽50个。
- 评分: 众包（Amazon Mechanical Turk）。参与者（英语母语者）在7点量表上评价词对意义相关度。使用控制对（高度透明或伪派生）进行筛选。取项目平均分。
- 预测变量: 组合ST 和整词ST。
结果:
- 评分者间一致性60%。评分分布负偏斜（均值5.52）。
- 模型生成的ST得分更呈高斯分布 (图4)。
- 基于秩的相关性: 组合ST ( $r h o = .32, p < .001$ ) 和整词ST ( $r h o = .36, p < .001$ ) 均与人类评分显著相关。
- 混合效应模型 (控制词缀效应): 整词ST ( $t = 5.75, p < .001$ ) 和组合ST ( $t = 2.57, p = .022$ ) 效果均显著。整词ST表现更好 ( $Δ A I C = 81$ )。
- 控制分析: 使用秩次或将项目按评分中位数分割（高/低透明度组）后，结果依然稳健。
讨论:
- 基于分布的ST度量能显著预测人类直觉。
- 组合方法虽不如整词方法，但其效果显著，特别是在低透明度词上。这表明语义不透明性可部分重构为系统性的、但较强的组合效应对词干意义的影响。
- 为什么组合方法有效？ FRACSS足够灵活，能捕捉派生的子规则性，扩展了系统性的边界。例如，-ful, -less, -y 常作用于词干的次要或隐喻意义，这些意义可能编码在词干向量的不同维度中，FRACSS能学会在与特定词缀组合时强调这些维度。
- 为什么整词方法更好？ 它能捕捉非系统性现象（词汇化、语义漂移、纯词源关系，如 archer），这些是说话者词汇知识的一部分，影响明确判断。组合方法在这些情况下可能产生误导（如生成 archer 的透明意义“造拱门的人”）。
- 局限: 显式判断本身可能不是评估模型的最佳方式（分布偏斜，可能忽略细微差异）。基于向量的度量似乎更能捕捉ST的连续性，且可能是更好的加工过程预测指标。

不同SOA下的启动效应 (Priming effects at different SOAs)

动机: 使用启动范式（派生词启动词干）测试模型。
- 检验模型预测与词汇处理时间进程的关系。
- 关注由专家精心挑选的、透明/不透明差异极端的测试集。
材料与方法:
- 刺激: Rastle et al. (2000) 使用的形态透明（24对, 如 dealer-deal）和不透明（21对, 如 cryptic-crypt）词对。
- 数据: Rastle et al. (2000) 报告的不同SOA（43ms, 72ms, 230ms）下的平均反应时（RTs）。SOA被认为反映了不同的加工阶段。
- 测试:
  1. 组合ST和整词ST能否区分透明/不透明集。
  2. 两种ST度量与不同SOA下RTs的关联。
结果:
- 区分能力: 组合ST和整词ST都能显著区分透明和不透明集，透明集的邻近度均显著更高。整词ST区分度更大 (图5)。
- 与RTs的关联:
  - 组合ST: 与 SOA=43ms 的RTs显著负相关 ( $r = - .38, p = .01$ )，与72ms和230ms不相关。
  - 整词ST: 与 SOA=43ms 不相关，与 SOA=72ms ( $r = - .53, p < .001$ ) 和 SOA=230ms ( $r = - .54, p < .001$ ) 的RTs显著负相关。
- 模式匹配: 组合ST的预测模式（图5）与短SOA的启动效应模式（图6）相似；整词ST的预测模式与长SOA的模式相似。
- 排除正字法解释: 对组合ST效应，通过比较组合向量和整词向量的邻居与其自身的正字法距离（Levenshtein距离），发现无显著差异，排除了组合ST主要捕捉形式相似性的可能性。
讨论:
- 结果证实基于分布的度量能有效区分透明/不透明词，即使是组合ST也能捕捉到不透明词中存在的组合性。
- 整词 vs. 组合方法的解离: 预测模式与不同SOA结果的匹配表明它们可能模拟不同的认知过程。
  - 组合方法: 捕捉早期、自动的过程，利用语义系统中的（子）规则性尝试组合观察到的语素意义。预测短SOA结果。
  - 整词方法: 捕捉晚期过程，基于词项（包括存储的派生词表示）间的语义相似性；这种相似性受系统性和非系统性（词汇化）因素影响。预测长SOA结果。
- 对掩蔽启动的解释:
  - 本文结果不挑战早期纯形式分解的作用，而是建立在其之上。自动的、语义盲的分解之后，可能跟着一个自动的语素意义组合过程。
  - 这个额外的早期语义过程解释了短SOA下观察到的透明度调节（即透明词启动>不透明词启动）。组合过程对不同类型的不透明词产生不同结果：
    - 若能生成正确的“不透明”意义（如 fruitless → "unproductive"），因其与词干差异大，语义启动弱。
    - 若只能生成透明替代意义（如 archer → "arch builder", corner → "corn grower"），反而会产生（相对于形式启动的）语义启动。
  - 这解释了短SOA下透明度效应的不稳定性：取决于不透明项目集中哪类词占主导。
- 与掩蔽启动理论的调和:
  - 传统掩蔽启动研究关注的联想关系，本文归因于整词路径（基于存储知识，需长SOA）。
  - 近期关注语素意义的掩蔽启动研究结果，与本文的组合路径（快速计算）预测一致。
  - 组合语义对于解释短SOA下的语义效应至关重要。
- 注意: 本文不否认在极短SOA下可能分离出纯粹的前语义 (pre-semantic) 形态加工（如 Gold & Rastle, 2007 的神经关联研究）。

词汇判断中频率效应的调节 (Modulation of frequency effects in lexical decision)

动机: 频率效应被认为是相应词（或语素）表征参与词汇加工的标志。考察ST如何调节词干和整词频率效应对词汇判断RTs的影响。
方法:
- 数据: 英语词汇计划 (ELP) 数据库中的3,806个带词缀词及其词汇判断RTs。词缀属于已训练的FRACSSs。
- 变量:
  - 因变量: RTs (对数转换)。
  - 预测变量: 派生词频率 (log), 词干频率 (log), 刺激长度 (样条曲线), ST (组合ST 或整词ST), ST与频率的交互项。
  - 随机效应: 词缀的随机截距和ST斜率。
结果 (表6):
- 交互效应:
  - 词干频率 * ST: 对组合ST和整词ST都显著。ST越高（越透明），词干频率的促进效应越强 (图7)。
  - 派生词频率 * ST: 仅对组合ST显著。ST越低（越不透明），派生词频率的促进效应越强 (图8)。
- 模型拟合: 组合ST模型拟合数据更好 ( $Δ A I C = 8$ )。
- 后续分析: 在控制了整词ST后，组合ST与派生词频率的交互作用仍然显著，表明组合方法能解释整词方法遗漏的RTs方差。
讨论:
- 模型提取的ST度量显著与词汇判断中的频率效应交互，反映了语素意义在加工中的相互作用。
- 组合方法表现更优:
  - 原因: 组合过程捕捉了广泛的（子）规则性，能处理大范围透明度的词；组合过程快速自动，适合词汇判断任务（只需判断词性，无需完全语义通达）。
  - 即使组合过程不能捕捉所有语义方面（如语义漂移），它产生的“足够熟悉”的意义足以高效完成任务。
  - 符合文献中词干意义在派生词词汇判断中重要性的发现。
- 交互效应的解释:
  - 词干频率 * ST: 符合预期。当词缀组合对词干意义影响较小时（高ST/透明），访问词干概念的容易度（频率）更重要。
  - 派生词频率 * ST (仅组合模型): 提出替代解释（因为组合模型无整词存储）。该效应可能反映了存储的语素组合知识（它们的联合概率，而非整词表征）。这种存储的组合知识在不透明词 (低ST) 中更有帮助，因为此时组合过程本身更困难（改变词干意义更大），依赖存储信息的优势更明显。

语义透明度实验总结讨论 (General discussion of the semantic transparency experiments)

核心发现: 组合方法和整词方法似乎模拟了认知上不同、行为上可区分的程序。
- 组合路径: 预测词汇判断RTs和短SOA启动。是早期、快速的过程，基于自动访问的语素，根据系统性语义（子）规则生成意义。
- 整词路径: 预测明确的ST判断和长SOA启动。是晚期过程，利用意义间的相似性，捕捉非系统性现象，至少部分基于存储知识。
双通路语义系统 (Dual procedure system):
- 类似形态加工中常提出的双通路模型，但应用于语义计算。
- 通路一 (整词): 意义作为语义节点激活模式直接访问，包含所有整体关联信息（包括非系统性）。ST是派生词意义与共激活的词干表征间相似性的副产品（类似词族大小效应的“网络共鸣”）。
- 通路二 (组合): 基于词干激活的语义节点，通过FRACSS应用进行转换。结果激活模式基于词缀语义的统计规律性近似派生词意义。ST捕捉词干在词缀应用后经历的意义修改量，（在一定程度上）独立于转换的可预测性。
双通路的应用:
- 假设两条通路对任何（表面）复杂的词都起作用，无论其实际形态复杂性或透明度如何。
- 组合通路对许多不透明词也有效（如 fruitless, foxy, heartless），因为FRACSS能捕捉它们的系统性。
- 组合通路产生的词干-派生词邻近度可作为ST的一个有效指标。
组合通路的局限与存在理由:
- 局限: 对于无系统/同步关系的情况（archer, corner）无效，会生成透明替代意义。
- 存在理由:
  1. 经验证据: 在特定任务（词汇判断，短SOA启动）中，组合ST预测效果优于整词ST。
  2. 理论: 生物系统不必最优，只需满意 (satisficing)。组合过程对大多数复杂词（所有透明词和许多不透明词）“足够好”。符合机会最大化原则 (maximization of opportunity)。
  3. 必要性: 对于新词和具有透明替代读法的词（如 chopper, ruler），以及在特定语境下组合使用不透明词（如 forty），组合过程是必需的。
未来研究方向:
- 通路效率: 研究两条通路在不同任务、词类型下的相对效率。
- 通路一致性: 量化两条通路产生结果的一致性（通过组合向量与整词向量的余弦相似度）。这可能测量派生词意义的系统性程度。预测：一致性越高，整合越容易，处理时间越短。
- ST的重新定义: ST包含两个方面：(1) 意义是否可从词干预测 (传统二分法)；(2) 由系统性词缀过程引起的词干意义转换量 (组合框架揭示)。
- 通路相对速度: 为什么组合通路更快？可能是其性质（更新单一模式 vs. 检索两个独立模式），或基于不同的前语义阶段信息（组合基于早期形态分解，整词基于后期词汇通达）。
结论: 大多数形态加工文献关注词汇层面及其对语义激活的影响。未来需研究本文提出的语义中心系统与先前捕捉形式加工的模型之间的相互作用。

总结讨论 (General discussion)

分布语义学的进展: 提供了一种客观研究意义的方法。已在形态处理中用于量化词干-派生词关系。
本文贡献:
- 超越静态词表示，引入动态的意义构建模型 (FRACSS)。
- FRACSS模型：词干=向量，词缀=线性函数（矩阵），组合=向量-矩阵乘法。
- 模型捕捉了词缀意义及其对词干影响的系统性和半系统性变化，但无法捕捉高度特异性意义。
关键发现:
- 新词模拟: 首次模拟新词派生的语义方面，预测其可接受度和语义。
- 语义透明度新视角: 揭示了ST被忽视的方面。透明度问题需与整词存储区分开。许多“不透明”词可通过足够灵活的组合模型解释（不透明 ≠ 不系统）。提出双通路模型（组合+整词）。
与相关领域的联系:
- 理论形态学: FRACSS可视为特征结构方法的扩展，使用大规模、自动归纳的实值特征和通用组合操作。相比强调词汇化图式的趋势，FRACSS提出通过更丰富表示和灵活组合来保留更多组合性空间。
- 心理语言学 (规则 vs. 类比/相似性): FRACSS系统是基于规则的（系统性函数应用），但规则内容（FRACSS矩阵）通过类比学习（拟合样本），且规则作用于连续表示，能捕捉半系统性。区分了离散的句法规则（词缀连接）和连续的词汇语义操作（意义转换）。
- 连接主义: 精神上一脉相承（分布式表示，组合操作）。主要创新：(1) 使用语料库归纳的大规模表示；(2) 非对称组合（向量→同空间向量），避免了张量积导致维度爆炸和不可比性。
- 技术层面: FRACSS是简单的单层前馈网络（无非线性），易于训练和解释。其简单性通过为每个词缀使用不同矩阵来弥补。
模型的核心机制: 提取复杂统计模式中的系统性知识，扩展到二阶关联（向量集合间的关系）。
填补模型空白: 为理论形态处理模型中长期存在的语素意义层面定义提供了具体实现。与假设语素意义组合的模型一致。
对分布语义学: 丰富了DSM词库，增加了动态过程，允许生成新词表示。模糊了形态和句法派生的界限，提供了统一的组合语义解释。
未来工作: 试验不同类型的DSM空间；探索非线性扩展FRACSS。
最终结论: 函数式分布语义学方法为理解派生形态学的语义结构和过程提供了重要的新见解。

Pasted image 20250731195412.png

问答

好的，完全没问题。以下是 “Modeling semantic transparency effects”（模拟语义透明度效应） 这一部分更详细、更具操作性细节的解释，严格依据论文中的描述。

核心研究问题和理论框架

文章的这一大部分旨在回答一个核心问题：我们的大脑是如何处理和理解那些意义“透明”的词（如 teacher）和意义“不透明”的词（如 department）的？

为了回答这个问题，作者提出了一个“双路径”或“双流水线”的理论框架，认为大脑中存在两种处理语义的机制：

组合路径 (Compositional Route / The "Fast Calculator")：
- 机制：这是一个快速、自动的、基于规则的计算过程。它将词语分解为其构成语素（词干和词缀），然后应用一个函数（即本文的FRACSS模型）来“计算”出派生词的意义。
- 特点：速度快，是处理的早期阶段。但由于它依赖于系统性的规则，对于那些意义已经发生巨大漂移（不透明）的词，它计算出的意义可能与实际意义有偏差。
全词路径 (Whole-word Route / The "Dictionary Look-up")：
- 机制：这是一个基于存储的检索过程。它将整个派生词（如 department）作为一个独立的单元，直接从大脑的“心理词典”中提取其已经存储好的、完整的意义。
- 特点：速度相对较慢，发生在处理的后期阶段。但它能准确提取出词语约定俗成的意义，包括所有不规则、不可预测的语义特征。

关键操作：如何量化“语义透明度”

为了在实验中检验这两个路径，作者首先需要一个可量化的指标来衡量“语义透明度”。他们使用了向量间的余弦相似度 (cosine similarity)。

公式为：ST = cos(s, t)

ST: Semantic Transparency（语义透明度）得分。分数越高（越接近1），表示语义越透明。
s: 词干（stem）的向量表示，例如 deal 的向量。
t: 派生词（derived form）的向量表示，例如 dealer 的向量。

这里的细节是关键：派生词的向量 t 有两种获取方式，正好对应了上述两条路径：

t (组合路径版)：这个向量不是直接从语料库中提取的。它是通过将词干 s 的向量乘以代表词缀的 FRACSS 矩阵计算出来的。这完美地模拟了“快速计算器”的工作方式。
t' (全词路径版)：这个向量是直接从语料库中提取的 dealer 这个词本身的向量表示。这模拟了“查字典”的方式，因为它代表了这个词在现实语言中已经存在的、完整的意义。

通过这两种方法计算出的 ST 分数，作者就可以分别检验“组合模型”和“全词模型”的预测能力。

三个核心实验的具体操作和细节

实验一：显性直觉判断 (Explicit Intuitions about Affixed Words)

目的：检验两个模型的 ST 分数与人类对语义透明度的直觉判断有多大相关性。
具体操作：
- 刺激材料：作者创建了一个包含900个“词干-派生词”词对的数据集（例如 sing-singer, corn-corner）。这些词对覆盖了18个不同的词缀。
- 数据收集：通过亚马逊的众包平台 Mechanical Turk 招募了大量英语母语者。参与者被要求在一个7点量表上评价每个词对中两个词的“意义相关度”（从1“完全不相关”到7“几乎是相同意思”）。
- 模型预测：作者用“组合路径”和“全词路径”两种方法，为这900个词对分别计算了 ST 分数。
结果与细节：
- 两种模型计算出的 ST 分数都与人类的评分显著正相关。
- “全词模型”的表现优于“组合模型”（Spearman相关系数 rho 分别为 0.36 和 0.32，且模型拟合度指标 ΔAIC = 81，表明全词模型优势巨大）。
- 关键细节：尽管“组合模型”输了，但它的预测效果在统计上依然是显著的，尤其是在处理那些人类评为“低透明度”的词时。
解释：当人们有充足时间进行有意识的判断时，他们会依赖于大脑中更准确的“词典”（全词路径）。但组合路径依然在底层运作，这说明即使是不透明的词，我们的大脑也在潜意识地尝试进行“计算”。

实验二：不同SOA下的启动效应 (Priming Effects at Different SOAs)

目的：利用反应时任务来区分这两个路径的处理速度。SOA (Stimulus Onset Asynchrony) 指的是启动词（prime）和目标词（target）呈现的间隔时间，是探测早期和晚期处理过程的利器。
具体操作：
- 刺激材料：使用了心理语言学领域经典研究 (Rastle et al., 2000) 的刺激，包括透明词对（dealer-deal）和不透明词对（cryptic-crypt）。
- 实验范式：掩蔽启动 (masked priming) 的词汇判断任务。启动词（派生词）在屏幕上极快地闪现，然后呈现目标词（词干），参与者需尽快判断目标词是否为真词。
- 关键变量：SOA被设置为三个水平：43ms (极短), 72ms, 和 230ms (较长)。
- 模型预测：分析两个模型的 ST 分数与在不同 SOA 条件下观察到的反应时“启动量”（即反应变快了多少）之间的相关性。
结果与细节 (这是本文最重要的发现)：
- 在 SOA = 43ms 时：只有“组合模型”的 ST 分数与反应时显著相关 (r = -.38)。“全词模型”的 ST 分数则不相关。
- 在 SOA = 72ms 和 230ms 时：情况完全反转。只有“全词模型”的 ST 分数与反应时显著相关 (r 分别为 -.53 和 -.54)。“组合模型”则不相关。
解释：这个结果为“双路径”假说提供了决定性的时间证据。在 procesamiento 的最早期阶段（43ms），大脑只能来得及完成快速的、自动的“组合计算”。而随着处理时间的增加，更慢但更准确的“全词检索”过程才得以完成并发挥作用。

实验三：词汇判断中的频率效应 (Modulation of Frequency Effects in Lexical Decision)

目的：在一个更基础、更普遍的词汇判断任务中，考察两个模型如何解释词频（一个词的常见程度）对反应时的影响。
具体操作：
- 刺激材料：从“英语词汇项目”（English Lexicon Project）数据库中提取了3806个派生词及其词汇判断任务的反应时数据。
- 分析方法：使用混合效应模型，分析语义透明度 (ST) 和词频（包括词干频率和派生词频率）之间的交互作用如何影响反应时。
结果与细节：
- 在整体模型拟合度上，“组合模型”再次优于“全词模型”（ΔAIC = 8）。
- “组合模型”的 ST 分数与词干频率和派生词频率都存在显著的交互作用。而“全词模型”的 ST 只与词干频率有交互作用。
解释：在快速的词汇判断任务中，早期的“组合路径”扮演了更重要的角色。它能更好地解释决定反应时的各种复杂因素。特别是它与“派生词频率”的交互作用，暗示这个快速路径不仅仅是关于词干的，它还包含了关于“词干与词缀如何组合”的知识，这是“全词模型”无法捕捉的。

本部分总的详细结论

通过这三个设计精巧、层层递进的实验，作者详细论证了：我们的大脑在处理复杂词汇的意义时，确实存在一个双路径系统。一个是以FRACSS模型为代表的、快速、自动的组合路径，它主导了加工的早期阶段和快速判断任务。另一个是基于存储的全词路径，它在加工后期生效，负责提取准确的、约定俗成的意义，主导了需要深思熟虑的显性判断任务。这个框架比单一路径的模型能更全面、更精细地解释复杂的心理语言学现象。